Learning Poli ies with External

نویسنده

  • Leonid Peshkin
چکیده

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Learning and Exploitation Do Not Conflict Under Minimax Optimality

\Ve show thaI, H.daptive n�al time dyrmmic prograrnming ex­ tended with the action selection strategy which chooses the best action Recording 1.0 the laLest, estimaLe orLhf' cos!' rllndiofl yields i-\..'i.yrnptoLicl-tlly 0pLirnal poli(:ies within riniLe Limp lJnder· !,lIP minimax 0pLirnality criu-'­ rian. H'om this it follows that learning and exploitation do not confiict under this special opt...

متن کامل

Learning Agents in a Homo Egualis Society

ABSTRACT Coordination is an important issue in multi-agent systems. A possible approa h to ta kle oordination, that re ently reeived quite a lot of attention, is to learn the e e ts of intera tion in the joint a tion spa e. However joint a tion spa es violate generally a epted requirements of multi-agents systems, su h as : distributed ontrol, asyn hronous a tions, in omplete information, ost o...

متن کامل

Ôøøú Êóùøø Óó Åóð× Ò Ëøó Blockin×øø Ììññ¹¹¹ôòòòòø Aeaeøûóöö× Êêôóöø Ìêêaeëè¹çê ¼¼¼¼¿¼ Ìööò×ôóöø Òò Åóóóððøý Äääóööøóöý Ë Blockinóóð Óó Ö Blockinøø Blockinøùöö¸úúð Òò Òúúöóòññòøøð Òòòòòòööòò Óðð Èóðýøø Blockinòòõùù Ööðð Ääù××òòò

We study adaptive route hoi e models that expli itly apture travelers' route hoi e adjustments a ording to information on realized network onditions in sto hasti time-dependent networks. Two types of adaptive route hoi e models are explored: an adaptive path model where a sequen e of path hoi e models are applied at intermediate de ision nodes; and a routing poli y hoi e model where the alterna...

متن کامل

Hyperfiltering for Stochastic Systems

Information-feedba k ontrol s hemes (more spe i ally, sensor-based ontrol s hemes) sele t an a tion at ea h stage based on the sensory data provided at that stage. Sin e it is impossible to know future sensor readings in advan e, predi ting the future behavior of a system be omes ne essary. Hyper ltering is a sequential method that enables probabilisti evaluation of future system performan e in...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 1999